第2.6节 线性回归(正态分布)
各位朋友大家好,欢迎来到月来客栈,我是掌柜空字符。
本期推送内容目录如下,如果你觉得本期内容对你有所帮助欢迎点赞、收藏、转发。
2.6 正态分布 2.6.1 一个问题的出现 2.6.2 正态分布
2.6 正态分布
2.6.1 一个问题的出现
17、18世纪曾是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接推动了天文学和测地学的迅猛发展。这些天文学和测地学的问题,无不涉及数据的多次测量、分析与计算。很多年以前,学者们就已经经验性地认为,对于有误差的测量数据,多次测量取算术平均是比较好的处理方法,并且这种做法现在我们依旧在使用。虽然当时缺乏理论上的论证,并且也不断地受到一些人的质疑,但取算术平均作为一种直观的方式,仍被使用了千百年。同时,算术平均在多年积累的数据处理经验中也得到相当程度的验证,被认为是一种良好的数据处理方法,但是在当时却没人能给出为什么。
1805年,勒让德提出了一种方法来解决这个问题,其基本思想认为测量中存在误差,并且让所有的误差累积为,其中为观测值,为理论值,然后通过最小化累积误差来计算得到理论值,即设真实值为,分别为次独立观测后的测量值,每次测量的误差为,按照勒让德提出的方法,累计误差为
可以看出勒让德给出的方法其实就是最小二乘法(Least Square)。通过对求导后令其为,求解得到的结果正是算术平均。也就是说,取所有观测结果的平均值来近似地代替真实值最终所产生的误差是最小的。由于算术平均是一个历经考验的方法,而以上的推理从另一个角度也说明了最小二乘法的优良性。这使当时的人们对于最小二乘法有了更强的信心。
从这里可以看出,这种做法的逻辑是,首先认为算术平均这种做法好但不知道为什么,然后有人提出了一种衡量误差的方法(最小二乘法),接着对误差最小化求解后发现其解正是算术平均,所以肯定了最小二乘的有用性,但事实上却没有说清楚算术平均为什么好,反而用算术平均的结果来肯定了最小二乘法的作用。
与此同时,伽利略在他著名的《关于两个主要世界系统的对话》中也对误差的分布做过一些定性的描述。这主要包括①误差是对称分布的;②大的误差出现频率低,小的误差出现频率高(这也很符合人们的认知常识)。用数学的语言描述,也就是说误差分布函数关于对称分布,概率密度函数随增大而减小,如图2-15所示。于是许多天文学家和数学家开始了寻找误差分布曲线的尝试,但最终都没能给出有用的结果。